พื้นฐานการเรียนรู้เชิงสร้างสรรค์ด้วยภาษาไพธอน: แนวทางการปรับแต่งโมเดล

จินตนาการว่าโมเดลภาษาขนาดใหญ่ (LLM) เป็นนักปราชญ์ที่ฉลาดแต่เป็นผู้เชี่ยวชาญทั่วไป หากต้องการเปลี่ยนผู้เชี่ยวชาญทั่วไปให้กลายเป็นผู้เชี่ยวชาญเฉพาะทาง เช่น แพทย์ภาพถ่ายทางการแพทย์หรือทนายความสัญญา เราจะดำเนินตามแนวทาง แนวทางการปรับแต่งโมเดล. แนวทางนี้กำหนดวิธีที่เราเคลื่อนจากเทคนิคการเรียกใช้แบบไม่มีตัวอย่าง (zero-shot prompting) ไปสู่การปรับแต่งโครงข่ายประสาทเทียมอย่างลึกซึ้ง โดยต้องชดเชยข้อจำกัดด้านฮาร์ดแวร์กับความต้องการของผลลัพธ์ระดับสูงสุด ระดับสูงสุด (SOTA) ผลลัพธ์

โหมดการปรับแต่งหลัก

การเรียนรู้ในบริบท (ICL): โมเดลจะคงสถานะ "แช่แข็ง" ไว้ มันเรียนรู้ที่จะประมาณค่า $P(y|x)$ โดยสังเกตตัวอย่างภายในคำสั่ง (prompt) เอง แม้ว่าจะรวดเร็ว แต่โดยทั่วไปแล้วมักมีความแปรปรวนสูงและเกิดการสร้างภาพลวงตา (hallucination)
ความเข้ากันได้และความเสถียร: เพื่อให้บรรลุความน่าเชื่อถือในระดับการใช้งานจริง เราต้องก้าวไปทางขวาบนแนวทางนี้ การปรับแต่ง (fine-tuning) ช่วยให้เกิดความเข้ากันได้ดีกว่า ความเข้ากันได้กับการตัดสินใจของมนุษย์ โดยการลงโทษอย่างชัดเจนต่อการเบี่ยงเบนจากรูปแบบที่แท้จริง
เป้าหมายระดับสูงสุด (SOTA): การบรรลุประสิทธิภาพระดับสูงสุดจำเป็นต้องจัดการกับข้อจำกัดที่ต้องแลกเปลี่ยนกัน การปรับแต่งเต็มรูปแบบให้การควบคุมสูงสุด แต่เสี่ยงต่อ 'การลืมอย่างหายนะ' ในขณะที่ PEFT (การปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์) ช่วยให้เกิดสมดุลที่เหมาะสมกับฮาร์ดแวร์

ตัวอย่างในโลกแห่งความจริง

พิจารณาช่วยเหลือทางการแพทย์ ใช้ ICL, คุณให้ตัวอย่างอาการ-การวินิจฉัยสามตัวอย่างในคำสั่ง (prompt) ใช้ การปรับแต่ง, คุณฝึกโมเดลด้วยบันทึกการแพทย์ 50,000 รายการ ผลลัพธ์นี้ทำให้โมเดลเข้าใจศัพท์ทางการแพทย์โดยธรรมชาติ และแสดงความสม่ำเสมอและเสถียรภาพที่สูงมากกว่า ความสม่ำเสมอและความเสถียร.

คำถามที่ 1

[บริบทการอ่าน: สมมติฐาน: ที่อายุฉัน คุณจะได้เรียนรู้หนึ่งบทเรียน ... สมมติฐาน: จำนวนบทเรียนที่คุณจะเรียนรู้จนถึงวัยสามสิบปียังไม่แน่นอน] เราสามารถสรุปข้อความต่อไปนี้จากสมมติฐานได้หรือไม่ [ภาพ: แบบฝึกหัดที่แสดงปริศนาตรรกะ]

ใช่

ไม่ใช่

ไม่สามารถบอกได้

คำถามที่ 2

วิธีการปรับแต่งใดที่เปลี่ยนแปลงค่าพารามิเตอร์จริงของโครงข่ายประสาทเทียมเพื่อให้ได้ประสิทธิภาพในโดเมนเฉพาะ?

การเรียกใช้แบบไม่มีตัวอย่าง (Zero-shot Prompting)

การเรียนรู้ในบริบทแบบมีตัวอย่างน้อย (Few-shot In-context Learning)

การปรับแต่งเต็มรูปแบบ

การสร้างเนื้อหาเสริมจากการค้นหา (RAG)

การวิเคราะห์กลยุทธ์: ระดับสูงสุดด้านการแพทย์

การดุลยภาพระหว่างต้นทุนและความแม่นยำ

สตาร์ทอัพด้านเทคโนโลยีสุขภาพต้องปรับโมเดลที่มีพารามิเตอร์ 8 พันล้านตัวให้สามารถสรุปรายงานทางมะเร็งที่ซับซ้อนได้ พวกเขามีรายงานที่ติดป้ายกำกับ 10,000 ฉบับ แต่มีงบประมาณการ์ดจอกราฟิก (GPU) จำกัด

คำถาม

1. ทำไมทีมถึงอาจเลือกใช้ PEFT แทนการปรับแต่งเต็มรูปแบบในสถานการณ์นี้?

คำตอบ:
PEFT (เช่น LoRA/AdaLoRA) ต้องการหน่วยความจำกราฟิก (VRAM) น้อยมาก โดยการฝึกเพียงส่วนย่อยของพารามิเตอร์ (ตัวแปลง) เท่านั้น ทำให้โมเดลขนาด 8B สามารถฝึกได้บนการ์ดจอระดับผู้ใช้ทั่วไปหรือระดับกลาง พร้อมทั้งยังได้ผลลัพธ์ใกล้เคียงกับการปรับแต่งเต็มรูปแบบ

คำถาม

2. ความเสี่ยงหลักของการพึ่งพาการเรียนรู้ในบริบทเพียงอย่างเดียวสำหรับงานทางการแพทย์นี้คืออะไร?

คำตอบ:
ขาดความสม่ำเสมอและความเสถียร ประสิทธิภาพของ ICL แปรปรวนมากตามรูปแบบคำสั่ง และอาจนำไปสู่การสร้างภาพลวงตาหรือสรุปผลที่ไม่มาตรฐาน ซึ่งเบี่ยงเบนจากข้อกำหนดด้านความเข้ากันได้ทางการแพทย์